摘要: 网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页。
中图分类号:
庞秋奔;顾平;杨小梅. 基于分块重要性模型与Xpath的Web信息抽取的研究[J]. 计算机与现代化, 2009, 8(8): 73-75,7.
PANG Qiu-ben;GU Ping;YANG Xiao-mei. Research on Web Information Extraction Based on Combining Block Importance Model and Xpath[J]. Computer and Modernization, 2009, 8(8): 73-75,7.